文章编号: 2095-4980(2020)04-0560-05

# 用于太赫兹高速通信的 FIR 滤波器 64 并行实现算法

王 颖 <sup>a,b</sup>, 刘 娟 <sup>a,b</sup>, 郝 鑫 <sup>a,b</sup>, 吴秋宇 <sup>a,b</sup>, 林长星 <sup>a,b</sup>

(中国工程物理研究院 a.微系统与太赫兹研究中心,四川 成都 610200; b.电子工程研究所,四川 绵阳 621999)

摘 要:为满足太赫兹无线通信系统对大容量基带信号处理算法的要求,基于直接从多项式 分解导出的传统滤波器并行实现算法,通过矩阵变化推导出复杂度更小的快速有限冲激响应(FIR) 滤波器并行实现。在此基础上通过张量积的表示给出了2并行、4并行和8并行的转换公式以及实 现架构。既而推导出2<sup>n</sup>并行快速 FIR 滤波器的通用实现公式,并对比了优化前后的复杂度差异。 最后给出了64并行的快速 FIR 滤波器的推导公式和具体实现架构,以及优化前后的硬件复杂度对 比,64并行的快速 FIR 滤波器算法资源消耗更少。

**关键词:** FIR 滤波器;并行化;数字信号处理;算法研究 中图分类号:TN911.72 **文献标志码:**A

doi:10.11805/TKYDA2018327

# 64 parallel implementation algorithm of FIR filter for terahertz high-speed communication

WANG Ying<sup>a,b</sup>, LIU Juan<sup>a,b</sup>, HAO Xin<sup>a,b</sup>, WU Qiuyu<sup>a,b</sup>, LIN Changxing<sup>a,b</sup>

(a.Microsystem and Terahertz Research Center, China Academy of Engineering Physics, Chengdu Sichuan 610200, China; b.Institute of Electronic Engineering, China Academy of Engineering Physics, Mianyang Sichuan 621999, China)

**Abstract:** In order to meet the requirements of the terahertz wireless communication system for large-capacity baseband signal processing algorithms, basing on the traditional filter parallel implementation algorithm derived directly from polynomial decomposition, a parallel implementation of a fast Finite Impulse Response(FIR) filter with less complexity is derived by matrix variation. On this basis, the 2 parallel, 4 parallel and 8 parallel conversion formulas and implementation architecture are given by the tensor product representation. The general implementation formula of the parallel fast FIR filter is derived and the complexity difference before and after optimization is compared. Finally, the derivation formula and specific implementation architecture of the 64 parallel fast FIR filter are given, as well as the hardware complexity comparison before and after optimization.

Keywords: FIR filter; parallelization; digital signal processing; algorithm research

随着信息技术的飞速发展,人们对信息传输速率的要求越来越高,从以前的数 MB/s 到几百 MB/s,甚至到 目前的几十 GB/s。太赫兹通信技术采用的太赫兹频段(0.1~10 THz)具备远高于传统微波频段物理带宽的优势,可 实现比微波频段几十至上百倍的速率提升,是未来高速无线通信技术的重要发展方向。但目前串行的数字调制解 调器显然已不能满足未来高速数据传输的要求,高速并行解调器的研究也越来越广泛和深入<sup>[1-2]</sup>。并行算法广泛 用于气象、通信、遥感、卫星测控等众多领域,具有重要的军事意义和工业民用价值<sup>[3]</sup>。本文基于 PARHI K K 提出的低并行度快速有限冲激响应(FIR)滤波器的基本原理<sup>[4]</sup>,推导出大并行度下的通用公式以及 64 并行度下的 FIR 滤波器公式和实现架构。

### 1 低并行度快速 FIR 滤波器实现

1.1 并行快速 FIR 滤波器

PARHI K K 提出的 2 并行度快速 FIR 滤波器结构如图 1 所示<sup>[5-7]</sup>,也可以用矩阵表示:





1.2 4 并行快速 FIR 滤波器

Fig.1 Schematic diagram of 2 parallel structure 图 12 并行的结构示意图

大尺寸的并行 FIR 滤波器可以级联更小尺寸快速并行滤波器的方式来设计<sup>[8]</sup>, 对于 4 并行可以继续运用 2 并 行快速结构分解,其结构如图 2 所示,可以看成是 2 级 2 并行快速 FIR 滤波器级联而成。



Fig.2 Schematic diagram of 4 parallel structure 图 2 4 并行的结构示意图

矩阵可表示为:

$$\boldsymbol{Y}_{4p} = \underbrace{\boldsymbol{B}_{4}}_{\boldsymbol{\widehat{\pi}} = \boldsymbol{\underbrace{M}_{4}}} \underbrace{(\boldsymbol{I}_{3\times3} \otimes \boldsymbol{Q}_{4})}_{\boldsymbol{\widehat{\pi}} = \boldsymbol{\underbrace{M}_{4}}} \boldsymbol{H}_{4} (\boldsymbol{P}_{2} \otimes \boldsymbol{P}_{2}) \boldsymbol{X}_{4p}$$
(2)

Γ

٦

$$\vec{x} \div : \mathbf{Y}_{4p} = \begin{bmatrix} Y_0 \\ Y_2 \\ Y_1 \\ Y_3 \end{bmatrix}; \mathbf{Q}_4 = \begin{bmatrix} 1 & 0 & z^{-4} \\ -1 & 1 & -1 \end{bmatrix}; \mathbf{B}_4 = \begin{bmatrix} 1 & 0 & 0 & 0 & 0 & z^{-4} \\ 0 & 1 & 0 & 0 & 1 & 0 \\ -1 & 0 & 1 & 0 & -1 & 0 \\ 0 & -1 & 0 & 1 & 0 & -1 \end{bmatrix}; \mathbf{X}_{4p} = \begin{bmatrix} X_0 \\ X_2 \\ X_1 \\ X_3 \end{bmatrix}; \mathbf{H}_4 = diag \begin{bmatrix} H_0 \\ H_0 + H_2 \\ H_0 + H_1 \\ H_0 + H_1 + H_2 + H_3 \\ H_2 + H_3 \\ H_1 \\ H_1 + H_3 \\ H_2 \end{bmatrix}$$

## 1.38并行快速 FIR 滤波器公式推导

由 2 并行快速 FIR 滤波器和 4 并行快速 FIR 滤波器可推出 8 并行快速 FIR 滤波器, 8 并行快速 FIR 滤波器可 由3级2并行级联而成,结构框图如图3所示。矩阵可表示为:

$$\boldsymbol{Y}_{8p} = \underbrace{\boldsymbol{B}}_{\boldsymbol{\mathfrak{H}} = \boldsymbol{\mathfrak{M}}}_{\boldsymbol{\mathfrak{H}} = \boldsymbol{\mathfrak{M}}} \underbrace{\left(\boldsymbol{I}_{3\times3} \otimes \boldsymbol{\mathcal{Q}}_{82}\right)}_{\boldsymbol{\mathfrak{H}} = \boldsymbol{\mathfrak{M}}} \underbrace{\left[\boldsymbol{I}_{3\times3} \otimes \left(\boldsymbol{I}_{3\times3} \otimes \boldsymbol{\mathcal{Q}}_{81}\right)\right]}_{\boldsymbol{\mathfrak{H}} = \boldsymbol{\mathfrak{M}}} \boldsymbol{H}_{8} \Big(\boldsymbol{P}_{2} \otimes \left(\boldsymbol{P}_{2} \otimes \boldsymbol{P}_{2}\right)\Big) \boldsymbol{X}_{8p}$$
(3)



Fig.3 Schematic diagram of 8 parallel structure 图 3 8 并行的结构示意图

#### 多并行度快速 FIR 滤波器通用公式推导 2

上文已经给出了2并行、4并行、8并行的 FIR 滤波器公式,可以看出,大尺寸的并行 FIR 滤波器可以级联 更小尺寸快速并行滤波器的方式来实现。可以根据这个思想和上文3种快速 FIR 滤波器来递推更大尺寸的快速并 行滤波器<sup>[9-10]</sup>。

根据式(1)~(3),可以看出 M=2<sup>N</sup>并行的通用公式可表示为:

$$\boldsymbol{Y}_{Mp} = \boldsymbol{B}_{M} \hat{\boldsymbol{Q}}_{M} \boldsymbol{H}_{M} \hat{\boldsymbol{P}}_{M} \boldsymbol{X}_{Mp}$$

$$\tag{4}$$

 $B_M$ 为 2<sup>N</sup>×(2<sup>N-1</sup>×3) 维,表示最后一级级联。

 $\hat{\boldsymbol{Q}}_{\scriptscriptstyle M} \mathrel{(} 2^{\scriptscriptstyle N-1} \times 3) \times 3^{\scriptscriptstyle N} \mathrel{\#}, \ \text{ ark $\mathbb{R}$ for $\mathbb{H}$ for $\mathbb{H}$ here $\mathbb{H}$$ 为 B<sub>2<sup>N-1</sup></sub>…B<sub>2</sub> 将右上角的延时 z<sup>-2<sup>N-1</sup></sup>…z<sup>-2</sup> 均改为 z<sup>-2<sup>N</sup></sup>。

 $H_M$ 为 3<sup>N</sup>×3<sup>N</sup>的对角阵,表示拆分后的子滤波器:  $H_M = diag \left[ \hat{P}_M M_M H \right]$ ,其中,  $H = \left[ H_1 H_2 \cdots H_M \right]$ 。  $\hat{\boldsymbol{P}}_{M} \overset{\text{}}{\to} 3^{N} \times 2^{N} \overset{\text{}}{\#}, \quad \boldsymbol{P}_{M} = \underbrace{P_{2} \otimes \cdots \otimes P_{2}}_{\cdots} \circ$ 

 $\boldsymbol{X}_{Mp} \stackrel{*}{\to} 2^{N} \times 1^{\frac{4}{3}}, \quad \boldsymbol{X}_{Mp} = \boldsymbol{M}_{M} \boldsymbol{X}_{\circ} \stackrel{*}{\to} \ddagger \Psi \boldsymbol{X} = [X_{1} X_{2} \cdots X_{M}], \quad \boldsymbol{M}_{M} = \begin{bmatrix} \boldsymbol{M}_{h2^{N-1} \times 2^{N}}; \quad \boldsymbol{M}_{12^{N-1} \times 2^{N}} \end{bmatrix}, \quad \boldsymbol{M}_{h2^{N-1} \times 2^{N}}, \quad \boldsymbol{M}_{12^{N-1} \times 2^{N}} \stackrel{*}{\to} 2^{N-1} \times 2^{N}$ 维 ,  $M_{_{12}^{N-1}\times 2^{N}}$  为  $M_{_{2^{N-1}}}$  每 列 后 加  $0_{_{2^{N-1}\times 1}}$  ,  $M_{_{12}^{N-1}\times 2^{N}}$  为  $M_{_{2^{N-1}}}$  每 列 前 加  $0_{_{2^{N-1}\times 1}}$  , Matlab 可 表 示 为  $reshape\left(\left\lceil M_{2^{N-1}}; 0_{2^{N-1} \times 2^{N-1}} \right\rceil, 2^{N-1}, 2^{N}\right), \quad reshape\left(\left\lceil 0_{2^{N-1} \times 2^{N-1}}; M_{2^{N-1}} \right\rceil, 2^{N-1}, 2^{N}\right)$ 

#### 64 并行快速 FIR 滤波器公式推导 3

因此可以得到 64 并行的矩阵为:

$$\boldsymbol{Y}_{64p} = \boldsymbol{B}_{64} \hat{\boldsymbol{Q}}_{64} \boldsymbol{H}_{64} \hat{\boldsymbol{P}}_{64} \boldsymbol{X}_{64p}$$
(6)  
$$\vec{x} \div : \boldsymbol{B}_{64} \not \to 64 \times 96 \not \oplus, \not \to 50 \not \oplus, \not \to 50 \not \oplus 50$$

**Ô**64为96×729维:

式中:**B**64为64×96维,

$$\hat{Q}_{64} = \underbrace{(I_{3\times3} \otimes B_{32}')}_{\text{第五级}} \underbrace{(I_{3\times3} \otimes I_{3\times3} \otimes B_{16}')}_{\text{第四级}} \underbrace{(I_{3\times3} \otimes I_{3\times3} \otimes I_{3\times3} \otimes B_{8}')}_{\text{第三级}} \underbrace{(I_{3\times3} \otimes I_{3\times3} \otimes I_$$

 $\hat{\boldsymbol{P}}_{64} \not \supset 729 \times 64 \ \text{\ \ }, \quad \hat{\boldsymbol{P}}_{64} = \underbrace{\boldsymbol{P}_2 \otimes \cdots \otimes \boldsymbol{P}_2}_{\boldsymbol{\mathcal{P}}_{64}} \circ$ 

 $X_{64}$  为  $64 \times 1$  维 ,  $X_{64p} = M_{64}X$  , 其 中  $X = [X_1 X_2 \cdots X_{64}]$  ,  $M_{64} = [M_{h32 \times 64}; M_{132 \times 64}]$  ,  $M_{h32 \times 64}$  为 reshape( $[M_{32}; 0_{32\times 32}]$ , 32, 64),  $M_{132\times 64}$   $\exists$  reshape( $[0_{32\times 32}; M_{32}]$ , 32, 64).

可以看出 64 并行的快速 FIR 滤波器可由 2 并行 FIR 滤波器通过 6 级级联而成,或者说 8 并行 FIR 滤波器通 过3级级联而成,其他的并行快速 FIR 也可以根据通用公式表达并实现出来。

563

564

对于并行度为 *M*=2<sup>*N*</sup>的 *K* 阶滤波器,表 1 对比了采用直接从多项式分解导出的传统并行滤波器和优化后的快速 FIR 并行滤波器的乘法器和加法器的消耗情况。

| Table1 Lyapunov coefficient        |               |                                                                          |  |
|------------------------------------|---------------|--------------------------------------------------------------------------|--|
| $2^{N}$ parallel K order filters   | multiplier    | adder                                                                    |  |
| traditional parallel filter        | $2^{N}-K$     | $2^N \left(K - 2^N + 1\right)$                                           |  |
| optimized fast FIR parallel filter | $(3/2)^{N}-K$ | $\left(\frac{3}{2}\right)^{N}K + 3^{N} + \sum_{i=2}^{N-1} 2^{i} 3^{N-i}$ |  |

对于 64 并行快速 FIR 滤波器,资源对比如表 2 所示,可以看出,优化后的算法比传统算法乘法器减少了 82%。

| 表 2 64 并行的 K 阶滤波器乘法器和加法器对比表        |                |                        |  |
|------------------------------------|----------------|------------------------|--|
| Table2 Lyapunov coefficient        |                |                        |  |
| 64 parallel K order filters        | multiplier     | adder                  |  |
| traditional parallel filter        | 64 <i>K</i>    | 64( <i>K</i> -63)      |  |
| optimized fast FIR parallel filter | ≈11.4 <i>K</i> | $\approx 11.4K + 1509$ |  |

进一步对比 64 并行的 64 阶滤波器:传统并行滤波器需要 4 096 个乘法器和 64 个加法器,而优化后的快速 FIR 并行滤波器则需要 729 个乘法器和 2 238 个加法器,减少了 3 367 个乘法器,增加了 2 174 个加法器。在 FPGA 中一个乘法器需使用一个 DSP48E 的 IP 硬核,但加法器不需要 IP 核,只需要用到 LUT 就可以。在 FPGA 实现 中一个乘法器需要的资源要远远大于一个加法器的资源,因此该算法大大减少了资源消耗。

## 5 结论

本文主要介绍了快速 FIR 并行滤波器的推导及实现,同时推导出 *M*=2<sup>N</sup>并行的 *K* 阶滤波器快速 FIR 并行的通 用公式。给出 64 并行快速 FIR 滤波器的实现公式及结构,同时将其和传统并行滤波器进行了复杂度对比,可以 看出,优化后的算法比传统算法节约了 82%的乘法器。

### 参考文献:

- SUEN J Y, FANG M T, DENNY S P, et al. Modeling of terabit geostationary terahertz satellite links from globally dry locations[J]. IEEE Transactions on Terahertz Science and Technology, 2015,5(2):299–313.
- [2] SADR R,RAPHAELI D,HINEDI S. Wideband modem design based on multirate filter banks[C]// 1995 IEEE International Conference on Gateway to Globalization. Seattle, WA:[s.n.], 1995:889-893.
- [3] 林长星. 2 Gbps 高速通信解调技术及其实现研究[D]. 北京:清华大学, 2012. (LIN Changxing. Research on demodulation technique and its implementation for 2 Gbps high speed communication[D]. Beijing:Tsinghua University, 2012.)
- [4] PARHI K K. VLSI digital signal processing systems: design and implementation[M]. New York:Wiley, 1999.
- [5] PARKER D A, PARHI K K. Low-area/power parallel FIR digital filter implementations[J]. Journal of VLSI Signal Processing Systems for Signal Image & Video Technology, 1997,17(1):75-92.
- [6] CHUNG J G,KIM Y B,JEONG H G,et al. Efficient parallel FIR filter implementations using frequency spectrum characteristics[C]// IEEE International Symposium on Circuits and Systems. Monterey,CA:IEEE, 2002:354-358.
- [7] CHENG C,PARHI K K. Hardware efficient fast parallel FIR filter structures based on iterated short convolution[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2004,51(8):1492-1500.
- [8] PROAKIS J G, MANOLAKIS D G. Digital signal processing principles, algorithms, and applications[M]. New Jersey:Prentice Hall, 1996.
- [9] CHENG C, PARHI K K. Furthur complexity reduction of parallel FIR filters[C]// Proceeding of IEEE ISCAS. [S.l.]:IEEE, 2005:1835-1838.
- [10] CHENG C,PARHI K K. Low-cost parallel FIR structures with 2-stage parallelism[J]. IEEE Transactions on Circuits System I: Regular Papers, 2007,54(2):280–290.